箱线图 - 数据分布的五数概括
定义:箱线图是一种显示数据分布的五数概括的图形,包括最小值、下四分位数、中位数、上四分位数和最大值。
五数概括:
题目:某班级学生数学成绩如下,绘制箱线图。
45, 52, 58, 61, 63, 65, 67, 68, 70, 72, 75, 78, 80, 82, 85, 88, 90, 92, 95, 98
步骤1:计算五数概括
• 数据已排序:45, 52, 58, 61, 63, 65, 67, 68, 70, 72, 75, 78, 80, 82, 85, 88, 90, 92, 95, 98
• \(n = 20\)
• 最小值 = 45
• \(Q_1\) 位置:\(\frac{20}{4} = 5\),取第5、6位平均值:\(Q_1 = \frac{63 + 65}{2} = 64\)
• 中位数位置:\(\frac{20}{2} = 10\),取第10、11位平均值:中位数 = \(\frac{72 + 75}{2} = 73.5\)
• \(Q_3\) 位置:\(\frac{3 \times 20}{4} = 15\),取第15、16位平均值:\(Q_3 = \frac{85 + 88}{2} = 86.5\)
• 最大值 = 98
步骤2:绘制箱线图
• 箱体:从64到86.5
• 中位线:73.5
• 须线:从64到45,从86.5到98
题目:在例题1的数据中加入一个异常值25,重新绘制箱线图。
新数据:25, 45, 52, 58, 61, 63, 65, 67, 68, 70, 72, 75, 78, 80, 82, 85, 88, 90, 92, 95, 98
计算五数概括:
• \(n = 21\)
• 最小值 = 25(异常值)
• \(Q_1 = 63\)(第6位)
• 中位数 = 72(第11位)
• \(Q_3 = 85\)(第16位)
• 最大值 = 98
绘制箱线图:
• 箱体:从63到85
• 中位线:72
• 须线:从63到45(下一个非异常值),从85到98
• 异常值:25单独标记
某公司员工年龄数据如下:
22, 24, 25, 26, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 42, 45, 48
绘制箱线图,并标出五数概括。
答题区域:
某商店日销售额(元)数据:
100, 120, 150, 180, 200, 220, 250, 280, 300, 320, 350, 380, 400, 420, 450, 480, 500, 520, 550, 580, 50, 1000
绘制箱线图,识别异常值,并分析数据分布特征。
答题区域:
两个班级的数学成绩箱线图如下:
班级A:最小值40,\(Q_1 = 60\),中位数75,\(Q_3 = 85\),最大值95
班级B:最小值50,\(Q_1 = 65\),中位数70,\(Q_3 = 80\),最大值90
比较两个班级的成绩分布,分析哪个班级成绩更稳定。
答题区域:
解答过程:
计算五数概括:
• 数据已排序:22, 24, 25, 26, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 42, 45, 48
• \(n = 20\)
• 最小值 = 22
• \(Q_1\) 位置:\(\frac{20}{4} = 5\),取第5、6位平均值:\(Q_1 = \frac{28 + 29}{2} = 28.5\)
• 中位数位置:\(\frac{20}{2} = 10\),取第10、11位平均值:中位数 = \(\frac{33 + 34}{2} = 33.5\)
• \(Q_3\) 位置:\(\frac{3 \times 20}{4} = 15\),取第15、16位平均值:\(Q_3 = \frac{38 + 39}{2} = 38.5\)
• 最大值 = 48
绘制箱线图:
• 箱体:从28.5到38.5
• 中位线:33.5
• 须线:从28.5到22,从38.5到48
解答过程:
计算五数概括:
• 数据排序:50, 100, 120, 150, 180, 200, 220, 250, 280, 300, 320, 350, 380, 400, 420, 450, 480, 500, 520, 550, 580, 1000
• \(n = 22\)
• 最小值 = 50
• \(Q_1\) 位置:\(\frac{22}{4} = 5.5\),取第6、7位平均值:\(Q_1 = \frac{200 + 220}{2} = 210\)
• 中位数位置:\(\frac{22}{2} = 11\),取第11、12位平均值:中位数 = \(\frac{320 + 350}{2} = 335\)
• \(Q_3\) 位置:\(\frac{3 \times 22}{4} = 16.5\),取第16、17位平均值:\(Q_3 = \frac{450 + 480}{2} = 465\)
• 最大值 = 1000(异常值)
识别异常值:
• \(IQR = 465 - 210 = 255\)
• 下界 = \(210 - 1.5 \times 255 = -172.5\)
• 上界 = \(465 + 1.5 \times 255 = 847.5\)
• 1000 > 847.5,所以1000是异常值
绘制箱线图:
• 箱体:从210到465
• 中位线:335
• 须线:从210到50,从465到580
• 异常值:1000单独标记
解答过程:
计算四分位距:
• 班级A:\(IQR_A = 85 - 60 = 25\)
• 班级B:\(IQR_B = 80 - 65 = 15\)
比较分析:
• 中位数:班级A(75)> 班级B(70),班级A整体成绩更高
• 四分位距:班级A(25)> 班级B(15),班级A成绩分散程度更大
• 稳定性:班级B的IQR更小,成绩更集中,更稳定
• 极差:班级A(55)> 班级B(40),班级A成绩范围更大
结论:班级B成绩更稳定,班级A成绩更高但分散程度更大。